Introducción a las técnicas multivariantes no supervisadas
Método para reducir la dimensionalidad de los datos cuando las variables son cuantitativas y existe presencia de correlación
Reproducir la matriz original en menos dimensiones
Enfoque de Hotelling (1933) o Pearson (1901)
Reproducir la matriz original en menos dimensiones.
El conjunto de datos RESUMEN.sav contiene un preprocesamiento de la GEIH del DANE a nivel departamental para algunas variables de interés.
Use el comando glimpse() y skim() para explorar el conjunto de datos.
Use la función Factoshiny(datos) y ajuste los parámetros del modelo.
Explore el peso de las variables mediante la función PCA(datos) del paquete FactoMineR.
Tenga en cuenta que:
\[\mathbf{Y} = \mathbf{XV}\]
De manera que la matriz \(\mathbf{V}\) son los ponderadores de las variables en la matriz \(\mathbf{X}\), con lo cual \(\mathbf{Y}\) es un índice que resume la información contenida en las variables originales.
Mientras que el PCA se usa para tratar variables cuantitativas que tienen algún grado de asociación lineal, el análisis de correspondencias es un método que surge de las tablas de contingencia y permite estudiar las relaciones entre variables nominales. Este análisis permite:
Al realizar la operación \(\mathbf{X}^T\mathbf{X}\) se llega a la matriz que concatena todas las tablas de contingencia entre pares de variables, denominada matriz de Burt
Çetinkaya-Rundel, M. and Hardin, J. (2021) Introduction to modern statistics. Sections of Regression modeling: 7, 8, 9 y 10. Disponible aquí: https://openintro-ims.netlify.app/
Ismay, C., & Kim, A.Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (1st ed.). Chapman and Hall/CRC. https://doi.org/10.1201/9780367409913
Thompson, J. (2019). Tidy Data Science with the tidyverse and tidymodels. https://tidyds-2021.wjakethompson.com
Diapositivas disponibles en GitHub.